Dependencias
Para la ejecución de este cuaderno, debe instalar con anterioridad los siguientes paquetes desde la consola de R o usando el menú Tools>Install Packages… en RStudio:
install.packages("tidyverse").install.packages("rmdformats").install.packages("plotly").install.packages("mvtnorm").install.packages("MASS").
Objetivo y alcance
Objetivo:
Identificar una distribución de probabilidad estadística y poder explicar sus principales características.
Entender el concepto de estadística multivariada.
Entender el concepto de distribución multivariada.
Aplicar herramientas de visualización útiles que permitan generar valor agregado al análisis de datos.
Alcance:
En este cuaderno se encuentra la primera aproximación al concepto de distribución multivariada, un acercamiento a la distribución normal multivariada y algunas herramientas de visualización útiles para el curso.
Distribuciones de probabilidad
Introducción
Uno de los instrumentos fundamentales de la estadística es la probabilidad, que tuvo sus orígenes en los juegos de azar, en el siglo XVII. Como indica su nombre los juegos de azar incluyen acciones tales como girar la rueda de una ruleta, lanzar dados, tirar al aire una moneda, extraer una carta, etc. en los cuales el resultado de una prueba es incierto. Sin embargo, es sabido que, aún cuando el resultado de una prueba en particular sea incierto, existe un resultado que se puede predecir a largo plazo. Se sabe, por ejemplo, que en muchas tiradas de una moneda justa (equilibrada y simétrica), aproximadamente en la mitad de pruebas se obtiene cara. Es una regularidad que puede predecirse a largo plazo. Para entender el origen de la probabilidad como una cuantificación de los experimentos aleatorios de una variable, el estudiante puede consultar Blanco (2013).
Espacio muestral
En cada experimento aleatorio, existirá un conjunto universal, el espacio muestral \(S\), tal que todos los otros conjuntos que intervengan en el análisis son subconjuntos de \(S\).Al lanzar un dado, por ejemplo, obtiene:
\[ S = \{Cara_1,Cara_2,Cara_3,Cara_4,Cara_5\}\] Al lanzar una moneda
\[ S = \{Cara,Sello\}\]
En general, nos interesan resultados numéricos del experimento aleatorio. Esto lo llamamos variable aleatoria, y en este caso lo que hacemos es asignar un número a los resultados del experimento aleatorio. Nuevamente, al lanzar un dado
\[ Cara_1 \rightarrow 1 \text{ , } Cara_2 \rightarrow 2 \text{ ... }, Cara_6 \rightarrow 6 \] Otro ejemplo. Si estudio la edad de los estudiantes de la maestría presentes en la clase de AED, la variable aleatoria \(X\) sería edad de los estudiantes de la maestría (en años) y al seleccionar un estudiante de la misma, me interesa su edad en lugar del estudiante en si
\[ Pepito \rightarrow 27 años\]
En lugar de notar el estudiante por su nombre, usualmente lo indicamos por un número. Supongamos que Pepito es el sujeto 3 de la lista
\[ \#3 \rightarrow 27 años\]
Es decir, la observación del sujeto 3 es 27 años. De manera más compacta, resumimos en estadística
\[ x_3 = 27\]
Suponiendo que son \(n=13\) los estudiantes de la maestría presentes en la clase de AED, \(x_1\),…,\(x_{13}\) corresponde a la muestra aleatoria univariada de 13 observaciones (o realizaciones) para las variables aleatorias \(X_{1}\),…,\(X_{13}\) (note la diferencia de mayúsculas y minúsculas). Las variables aleatorias pueden ser caracterizadas por modelos matemáticos que resumen su chance de ocurrencia. A estos los llamamos distribuciones de probabilidad univariadas, los cuales ejemplificaremos con el modelo de probabilidad normal.
Continuación de la distribución normal univariada
Muchas de las técnicas utilizadas en estadística se basan en la distribución normal, esto es dado porque muchos fenómenos aleatorios, al ser medidos, siguen de manera aproximada esta distribución: los valores se aglomeran simétricamente en torno a un valor central específico. La mayoría de estas medidas se ubican dentro de alguna distancia determinada respecto a un valor central, a la izquierda o a la derecha, las demás se presentan de manera cada vez más escasa, en tanto que la distancia al valor central es grande. Lo anterior corresponde a una descripción intuitiva de la variable cuyos valores se distribuyen conforme a una distribución normal. El nombre de “normal” procede del uso en algunas disciplinas, las cuales asumen como normales a los individuos cuyos atributos se ubican dentro de cierto intervalo centrado en un valor específico (Díaz Monroy & Morales Rivera, 2012). Se dice que una variable aleatoria \(X\) se distribuye normalmente si su función de densidad está dada por:
\[ f(x|(\mu,\sigma)) =\dfrac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{1}{2} \left( \frac{x-\mu}{\sigma^2} \right)^2 } \hspace{0.5cm} \text{con } -\infty < x < +\infty\] De manera simbólica se escribe como \(X \sim N(\mu,\sigma)\) esta es una función muy elaborada, pero lo que busca es resumir matemáticamente el comportamiento descrito anteriormente. Recordamos del cuaderno anterior la siguiente figura, en la que representamos la función de densidad para varios valores de \(\sigma\) y de \(\mu\). Recuerde que un cambio en el parámetro de centralidad o media (\(\mu\)) se limita a trasladar la curva a la derecha o a la izquierda sin alterar su forma, mientras que un cambio en el parámetro de dispersión o desviación estándar (\(\sigma\)) mantiene el punto central, modificando la ‘concentración’ de la curva resultante:
f_normal = function(x,mu,sigma) {(1/(2* pi * sigma^2)) * (exp(-0.5*((x-mu)/sigma)^2))}
ggplot() + xlim(-3,3) +
geom_function(fun = f_normal,args=list(mu=-1,sigma=1) ,color = "yellow") +
geom_function(fun = f_normal,args=list(mu=0,sigma=1),color = "blue") +
geom_function(fun = f_normal,args=list(mu=1,sigma=1),color = "red")
Ahora, cambiando el segundo parámetro del modelo:
ggplot() + xlim(-3,3) +
geom_function(fun = f_normal,args=list(mu=0,sigma=2) ,color = "yellow") +
geom_function(fun = f_normal,args=list(mu=0,sigma=1),color = "blue") +
geom_function(fun = f_normal,args=list(mu=0,sigma=3),color = "red")
Como mencionamos en el cuaderno anterior, la distribución normal representa a una familia de distribuciones con dos parámetros, \(\mu\) y \(\sigma\). La función \(f(x|(\mu,\sigma))\) resume el comportamiento aleatorio de la variable univariada de interés \(X\), y cualquier evento de dicha variable (por ejemplo: que \(X\) resulte ser mayor a 0, menor que 15, o igual a 2) puede ser caracterizado fácilmente con el área bajo la curva. Los posibles valores de una variable con distribución normal son \(-\infty < x < +\infty\), es decir, cualquier real puede ser resultado del experimento aleatorio. Números cercanos a la media tienen una mayor verosimilitud, y a medida que se alejan disminuyen su verosimilitud., además, el chance de obtener un número real cualquiera mediante el experimento aleatorio será siempre igual a uno. Con lo cual se cumple la siguiente propiedad:
\[\int_{-\infty}^{\infty}f(x|(\mu,\sigma)) dx = 1\]
Y subintervalos más informativos pueden ser de interés en el estudio. Por ejemplo, si la variable aleatoria \(X\) igual a la edad de los estudiantes del curso sigue la distribución normal con parámetros \((\mu = 27 \text{ años},\sigma = 5 \text{ años})\). Se tiene que:
ggplot() + xlim(15,40) +
geom_function(fun = f_normal,args=list(mu=27,sigma=5) ,color = "red")
Con seguridad los estudiantes tienen entre \(-\infty < x < +\infty\) con \(x\) indicando la edad de los estudiantes. En este caso se tiene también que
\[\int_{-\infty}^{27}f(x|(\mu,\sigma)) dx = 0.5\] Y
\[\int_{27}^{\infty}f(x|(\mu,\sigma)) dx = 0.5\] Es decir, la probabilidad de tener menos de 27 años es 0.5, lo mismo para la probabilidad de tener más de 27.
En la familia de la distribución normal, la distribución con parámetros, \(\mu = 0\) y \(\sigma = 1\) es la más importante y se llama distribución normal estándar. Usualmente se nota con la letra \(Z\), y está dada por
\[ f(z|(\mu = 0,\sigma = 1)) =\dfrac{1}{\sqrt{2\pi \times 1 }}e^{-\frac{1}{2} \left( \frac{z-0}{1} \right)^2 } = \dfrac{1}{\sqrt{2\pi}}e^{-\frac{1}{2} z^2 } \hspace{0.5cm} \text{con } -\infty < z < +\infty\] Presentada visualmente a continuación
ggplot() + xlim(-3,3) +
geom_function(fun = f_normal,args=list(mu=0,sigma=1) ,color = "red")
Y cualquier variable aleatoria \(X\) con distribución normal de media \(\mu\) y desviación estándar \(\sigma\) puede ser ‘transportada’ a la variable aleatoria \(Z\) con distribución normal estándar (de media \(\mu = 0\) y desviación estándar \(\sigma = 1\)) mediante la estandarización de la variable:
\[ Z = \frac{X - \mu}{\sigma}\] Siguiendo el ejemplo práctico de la edad de los estudiantes, los parámetros \((\mu = 27 \text{ años},\sigma = 5 \text{ años})\) son usualmente desconocidos bajo el experimento aleatorio, pero pueden ser estimados al observar una colección de edades \(x_1\),…, \(x_n\) a través de la media (\(\bar{x}\)) y desviación estándar (\(s\)) de la muestra:
\[ \hat{ \mu } = \bar{x} \hspace{0.5cm} \text{con} \hspace{0.5cm} \bar{x}= \frac{ \sum x_i }{n} \]
Y
\[ \hat{ \sigma } = s \hspace{0.5cm} \text{con} \hspace{0.5cm} s= \sqrt{\frac{ \sum (x_i - \bar{x})^2 }{n-1}} \]
Finalmente, es importante notar que no todas las variables aleatorias siguen esta distribución. Hay una gran cantidad de distribuciones de probabilidad, algunas descritas en el siguiente esquema:
Ejercicio 1
Simule una distribución normal de tamaño \(n=100\) con parámetros \(\mu=37\) y \(\sigma=2\), con ayuda de la función
rnorm() de R. Realice un histograma, junto con la
estimación kernel de la densidad:
¿Qué es la estadística multivariada?
La estadística multivarada entendida como la generalización de la estadística univiariada, hace referencia al conjunto de herramientas que permiten analizar más de una variable sobre un conjunto de individuos u objetos, que conocemos como unidades estadísticas (UE). En forma más general, los datos multivariados pueden proceder de varios grupos o poblaciones de UE, donde el interés se dirige a la exploración de las variables y la búsqueda de su interrelación dentro de los grupos y entre ellos (Díaz Monroy & Morales Rivera, 2012). Al igual que en el caso univariado, las variables aleatorias multivariadas poseen modelos matemáticos (las llamadas distribuciones de probabilidad multivariadas) con parámetros determinados. Si bien, en la mayoría de casos dichas distribuciones no son sencillas de calcular; nos centraremos en el caso de la distribución normal multivariada.
Técnicas multivariadas
Las técnicas del análisis multivariado hacen referencia a las relaciones entre un número de variables aleatorias a partir de sus mediciones (datos) sobre un conjunto de UEs. Este concepto se puede plasmar como un arreglo matricial, generalmente representado por \(\mathbb{X} = \{x_{ij}\}\), donde las filas corresponden a los individuos y las columnas a las variables, de la siguiente manera:
\[\mathbb{X} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix} \ \ \ \ (i)\]
Donde \(x_{np}\) representa la realización de la variable \(p\) en el \(n-ésimo\) individuo. Piense en el arreglo matricial como un archivo de excel en el que cada fila corresponde a una UE y cada columna una variable observada. Así pues, podemos hablar ahora del vector de realizaciones de una variable aleatoria \(p\)-dimensional (o vector aleatorio) para el individuo \(i\) como:
\[\mathbf{x}_{i.} = [x_{i1},x_{i2}, \cdots, x_{ip}] \ \ \ \ (ii)\]
Podemos configurar la matriz de datos en filas:
\[ \mathbb{X} = \begin{bmatrix} \mathbf{x}_{1.} \\\mathbf{x}_{2.}\\ \vdots \\ \mathbf{x}_{n.} \end{bmatrix} \]
Y también podemos pensar en la columna \(j\) de \(\mathbf{x}\) como la realización de la variable aleatoria \(j\), de forma univariada:
\[\mathbf{x}_{.j} = \begin{bmatrix} x_{1j} \\x_{2j}\\ \vdots \\ x_{nj} \end{bmatrix} = [x_{1j},x_{2j}, \cdots, x_{nj}]^t \ \ \ \ (iii) \]
Podemos configurar la matriz de datos en columnas:
\[ \mathbb{X} = [\mathbf{x}_{.1},\mathbf{x}_{.2},\dots,\mathbf{x}_{.p}] \]
El caso multivariado considera a \(\mathbf{x}_{,j}\) como el vector de \(n\) realizaciones de la \(j\)-ésima variable aleatoria \(X_j\), la cual hace parte del vector aleatorio \(p-\)dimensional \(\mathbf{X}\): un vector donde cada una de sus componentes es una variable aleatoria:
\[\vec{X} = (X_{1},X_{2}, \cdots, X_{p})' \]
Parámetros y estadísticas en estadística multivariada normal
En la estadística normal multivariada normal tenemos dos parámetros que la caracterizan el modelo de probabilidad, de manera semejante al caso normal univariado. En este caso, sin embargo, son elementos multidimensionales. Si un vector aleatorio \(\vec{X}\) de dimensión \(p\) sigue la distribución normal multivariada de parámetros \((\vec{\mu},\Sigma)\) se nota como \(\vec{X} \sim N_p (\vec{\mu},\Sigma)\), los cuales se describen a continuación.
Parámetros
- Vector de medias: Dado un vector aleatorio \(\mathbf{X}\), podemos definir la media de \(\mathbf{X}\) como la media para cada una de las variables aleatorias:
\[ \vec{\mu} = \begin{bmatrix} \mu_1\\ \mu_2\\ \vdots \\ \mu_p \end{bmatrix}\]
- Matriz de varianzas y covarianzas: Esta matriz la cual notaremos por \(\Sigma\), está dada por:
\[\Sigma = Cov(\vec{X}) = \begin{bmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1p} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{np} \end{bmatrix}\]
Donde \(\sigma_{ij}\) representa la covarianza entre la variable \(X_i\) y la variable \(X_j\).
Modelo matemático
Este modelo resembla el caso univariado, ya que existe una función de densidad \(f( \vec{x} | (\vec{\mu},\Sigma))\) con la que podemos calcular diferentes probabilidades de interés. Esta fórmula es bastante elaborada pero sigue el mismo principio del caso univariado, en el que se busca resumir matemáticamente el comportamiento acampanado descrito, pero ahora en múltiples dimensiones. También existe la distribución normal multivariada estándar, la cual nuevamente es sintácticamente más sencilla y se describirá a continuación.
Sea \(\vec{Z} = (Z_1,...,Z_p)\) un vector p-dimensional de variables aleatorias independientes, cada una con distribución normal estándar. La distribución del vector \(\vec{Z}\) es
\[f(\vec{z}| (\vec{\mu} = \vec{0},\Sigma = I_p)) = \prod_{i=1}^{p} f_{Z_i}(z_i) = \prod_{i=1}^{p}\dfrac{1}{(2\pi)^{1/2}}e^{-\frac{1}{2} z_{i}^2 }\]
En el caso bidimensional (\(p=2\)), puede pensar en la distribución normal estándar revolucionada sobre su media, generando un sólido similar a una campana de navidad.
¿Qué sucede con diferentes estructuras de correlación?
Estadísticas
Nuevamente, es usual que estos sean parámetros desconocidos, pero con ayuda de las observaciones multivariadas podremos estimarlo. De manera análoga al caso univariado, a cada UE seleccionada de manera aleatoria de la población de individuos, se le miden una serie de atributos u observaciones (valores de las variables aleatorias). Sea \(x_{ij}\) la observación de la \(j-\)ésima variable en el \(i-\)ésimo individuo, se define la matriz de datos multivariados como el arreglo:
\[\mathbb{X} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix} \]
Entonces:
- El vector formado por las \(p-\)medias muestrales es el vector de promedios o medias:
\[ \mathbf{\bar{x}} = \begin{bmatrix} \bar{x}_1\\ \bar{x}_2\\ \vdots \\ \bar{x}_p \end{bmatrix}\]
Con
\[\bar{x}_j = \frac{1}{n}\sum_i x_{ij}\]
- La matriz constituida por las covarianzas \(s_{ij}\) , es la matriz de varianzas y covarianzas muestral, ésta es:
\[S = \dfrac{1}{n}\mathbb{X} \big(I_n - \dfrac{1}{n} \vec{1}^t\vec{1}\big)\mathbb{X} = \begin{bmatrix} s_{11} & s_{12} & \cdots & s_{1p} \\ s_{21} & s_{22} & \cdots & s_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ s_{p1} & s_{p2} & \cdots & s_{pp} \end{bmatrix}\]
Dónde:
\[s_{jk} = \dfrac{1}{n-1}\sum_{i=1}^{n} (x_{ij}-\bar{x}_j)(x_{ik}-\bar{x}_k)\ \ \ \text{para} \ \ j,k = 1,...,p\]
Más conocida como la covarianza muestral entre la variables columna \(j\) y la variable columna \(k\). Cuando \(j=k\) se convierte en la varianza de la variable \(j\). A continuación se presenta un ejercicio de aplicación para el calculo de las estadísticas multivariadas descritas:
Ejercicio 2
Los siguientes datos pertenecen a una muestra de 1000 individuos con información de edad, estatura, peso y perímetro abdominal.
# read_delim se usa cuando un conjunto de datos csv no está separado por comas sino por otro separador
X = read_delim("health_data.csv")
## Rows: 1000 Columns: 4
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## dbl (4): Edad, Estatura, Peso, Perimetro_abdominal
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
print(head(X))
## # A tibble: 6 × 4
## Edad Estatura Peso Perimetro_abdominal
## <dbl> <dbl> <dbl> <dbl>
## 1 36 178. 81.3 106.
## 2 34 165. 72.7 101.
## 3 26 187. 88.8 114.
## 4 42 179. 77.6 99.3
## 5 42 172. 70.8 90.3
## 6 56 177. 86.3 112
Para los datos, calcule el vector de medias:
De manera complementaria al ejercicio anterior, se presenta el cálculo de la matriz de varianzas y covarianzas:
S = matrix(NA, nrow=4, ncol=4)
for (j in 1:4){
var_j = nombres_columnas[j]
for (k in 1:4){
var_k = nombres_columnas[k]
sjk = 1/(n-1)*sum((X[[var_j]]-x_mean[var_j])*(X[[var_k]]-x_mean[var_k]))
S[j,k] <- sjk
}
}
print(S)
## [,1] [,2] [,3] [,4]
## [1,] 121.3717678 -8.497910 6.681031 0.3585415
## [2,] -8.4979095 87.880963 39.900554 5.7127535
## [3,] 6.6810312 39.900554 81.530665 98.9103237
## [4,] 0.3585415 5.712753 98.910324 150.3589867
Como se ha resaltado, R es un lenguaje orientado al análisis de datos. Estas dos rutinas se implementan fácilmente sin necesidad de programarlas. Para la media:
# Vector de medias
colMeans(X)
## Edad Estatura Peso Perimetro_abdominal
## 35.4020 175.6458 77.9449 102.3585
Para las varianzas y covarianzas
# Matriz de varianzas y covarianzas
cov(X)
## Edad Estatura Peso Perimetro_abdominal
## Edad 121.3717678 -8.497910 6.681031 0.3585415
## Estatura -8.4979095 87.880963 39.900554 5.7127535
## Peso 6.6810312 39.900554 81.530665 98.9103237
## Perimetro_abdominal 0.3585415 5.712753 98.910324 150.3589867
Visualización de la distribución normal multivariada
Para comprender la distribución normal multivariada, una visualización inicial permite caracterizar la relevancia de sus parámetros y la manera en la que interactúan al definir la función de densidad. A continuación se muestran gráficos basados en un modelo teórico y en los datos de salud previamente presentados. También se presenta una visalización basada en simulación de datos.
Visualización de datos reales
A continuación se trabajarán los datos de salud anteriormente mencionados.
Ejercicio 3
Realice un diagrama de dispersión entre las variables peso y perimetro abdominal, tal como se hizo en el primer cuaderno del curso.
Densidad univariada
Para el estudio de los datos de salud se presenta inicialmente la estimación de la densidad para cada una de las variables de manera univariada:
gather(X) %>%
ggplot(aes(x = value, color = key)) +
geom_density()+
labs(x= "",y='Densidad',title="Densidad estimada")
Se aprecia una semejanza con la densidad de la distribución normal para las diferentes variables. Sin embargo, graficar las 4 densidades de manera simultánea (bajo un mismo eje \(x\)) no es correcto, pues las unidades de medición de las variables no son iguales; por lo tanto no son comparables. La forma correcta de presentar las densidades es la siguiente:
gather(X) %>%
ggplot(aes(x=value)) +
geom_density() +
labs(x= "",y='Densidad',title="Densidad estimada") +
facet_wrap(~key, scales = "free")
Al ser distribuciones centradas en un valor, aparentemente simétricas, las colas de la distribución “ligeras” y con forma de “campana” el método gráfico nos da un indicio de la normalidad en los datos.
Distribución multivariada (\(p=2\))
Note ahora el siguiente gráfico, en el cual se observan los datos de manera bivariada:
library(psych)
pairs.panels(X,
scale = FALSE, # If TRUE, scales the correlation text font
density = TRUE, # If TRUE, adds density plots and histograms
method = "pearson", # Correlation method (also "spearman" or "kendall")
cor = TRUE, # If TRUE, reports correlations
jiggle = FALSE) # If TRUE, data points are jittered
También se puede observar que los datos resemblan realizaciones de una distribución normal bivariada. Este gráfico cotiene información adicional del cojunto de datos. Para entender el gráfico, tenga en cuenta lo siguiente:
- Es un arreglo gráfico de dimensión 4x4, ya que estamos trabajando con 4 variables en simultáneo
- Los gráficos por debajo de la diagonal principal son gráficos de dispersión que muestran el 1 a 1 de los individuos en nuestra base de datos, y permite encontrar estructuras de correlación dos a dos dentro de las variables
- En la diagonal principal se encuentran los histogramas de frecuencia y las densidades estimadas de las variables en estudio.
- Los valores por encima de la diagonal principal, hacen referencia al valor de la correlación lineal de pearson entre las variables, y los “*” que los acompañan refieren a la significancia de una prueba de hipótesis sobre este estadístico.
Finalmente revisamos la distribución conjunta de los datos, que nuevamente soporta el supuesto de normalidad en los mismos Para dos variables en particular (edad y peso), se muestran a continuación los gráficos de densidad. Primero el gráfico de contorno para visualizar las características tridimiensionales a graficar en dos dimensiones:
p2 <- ggplot(X, aes(x = Edad, y = Peso)) +
geom_point(alpha = .5) +
geom_density_2d()
p2
Se evidencia en este una gran concentración de puntos cerca a (35,80); sin correlación lineal aparente.
Densidad multivariada (\(p=2\))
Ahora, esta visualización se puede realizar directamente en el espacio tridimensional:
library(MASS)
library(plotly)
dens <- kde2d(X$Perimetro_abdominal, X$Peso)
plot_ly(x = dens$x,
y = dens$y,
z = dens$z) %>% add_surface()
El gráfico que presenta de forma bivariada el peso y el perímetro abdominal parece que proviene de una distribución normal multivariada, centrada en el vector \((102,79)\) y su particular forma de campana son indicios de este hecho. Esta primera aproximación a la distribución multivariada no prueba de que los datos provengan de esta distribución, pues solamente hemos visualizado características de la densidad de manera univariada y bivariada. Pueden consultar más métodos gráficos de distribuciones multivariadas en (Everitt & Hothorn, 2011).
Visualización de datos simulados
Al cambiar la estructura de correlación mediante la modificación de los parámetros varianza y covarianza, podemos visualizar datos observados mediante múltiples combinaciones de parámetros para la distribución normal multivariada:
library(mvtnorm)
my_mu1 <- c(0, 0) # Vector de medias
for (i in c(-0.9,-0.5,0,0.3,0.9)){
my_n1 <- 1000 # Tamaño muestral
my_Sigma1 <- matrix(c(1, i, i, 1),ncol = 2) # Matriz de varianzas y covarianzas
M_norm <- mvrnorm(n = my_n1, mu = my_mu1, Sigma = my_Sigma1)
pairs.panels(M_norm,
scale = FALSE, # If TRUE, scales the correlation text font
density = TRUE, # If TRUE, adds density plots and histograms
method = "pearson", # Correlation method (also "spearman" or "kendall")
cor = TRUE, # If TRUE, reports correlations
jiggle = FALSE) # If TRUE, data points are jittered
}
En este caso, los datos simulados claramente evidencian una distribución normal de manera bivariada.
Conclusiones
En este notebook hemos dado los principios básicos de la estadística multivariada, atendiendo de forma efectiva las principales fórmulas que rigen este conjunto de herramientas.
Dimos claridad al concepto de parámetro, estadístico, estimación, muestra y población.
Recreamos los cálculos de algunos estadísticos de forma manual, todo para aterrizar los conceptos que rodean a la estadística multivariada.
Se dieron algunas herramientas de visualización y la primer aproximación a las distribuciones multivariadas, como caso particular a la distirbución normal multivariada.
Anexos
Función de distribución de probabilidad normal
Podemos calcular las probabilidades acumuladas bajo una variable normalmente distribuida en cualquier punto \(x\), con lo cual, introducimos el concepto de función de distribución de la variable \(X\) denotado como \(F(x)\) y definido como:
\[F(x|(\mu,\sigma)) = \int_{-\infty}^{x}f(x|(\mu,\sigma)) dx = 1\] También es posible visualizar dicha función, note que nuevamente depende únicamente de los dos parámetros de la distribución normal:
x <- seq(-4, 4, length=100)
dnor <- pnorm(x)
sigma <- c(0.5, 2, 10)
colors <- c("red", "blue", "darkgreen", "black")
labels <- c("sigma=0.5", "sigma=2", "sigma=10", "Normal Estándar")
plot(x, dnor, type="l", lty=2, xlab="x",
ylab="Densidad", main="Distribuciones normales, con diferente parametro de dispersión", ylim=c(0,1))
for (i in 1:4){
lines(x, pnorm(x,0,sigma[i]), lwd=2, col=colors[i])
}
legend("bottomright", inset=.05,
labels, lwd=2, lty=c(1, 1, 1, 2), col=colors)
Propiedades de la distribución normal multivariada
A continuación se resaltan las dos propiedades de mayor relevancia en el estudio de la distirbución normal multivariada. Para el entendimientos de las otras propiedades de esta distribución, así como el desarrollo de las mismas, se puede consultar en el libro de Díaz Monroy & Morales Rivera (2012).
Linealidad. Si \(X\) es un vector aleatorio p-dimensional distribuido normalmente, con vector de medias \(\mu\) y matriz de varianzas y covarianzas \(\Sigma\), entonces el vector \(Y = AX +b\), con \(A\) una matriz de tamaño \((q × p)\) y \(b\) un vector de tamaño \((q × 1)\), tiene distribución normal q-variante, con vector de medias \(A\mu + b\) y matriz de varianzas y covarianzas \(A\Sigma A^t\). En símbolos, si \(\vec{X} \sim N_p (\mu,\Sigma)\) entonces \(\vec{Y} = (AX + b) ∼ N_q(A\mu + b; A\Sigma A^t)\).
Estandarización. Sea \(X\) un vector aleatorio p-dimensional distribuido normalmente con vector de medias \(\mu\) y matriz de varianzas y covarianzas \(\Sigma\). Si \(\Sigma\) es una matriz no singular entonces: \[\vec{Z} = \Sigma^{−1/2} (\vec{X} − \vec{\mu})\] tiene distribución normal p-variante con vector de medias cero y matriz de varianzas y covarianzas la identidad \(I_p\), donde \(\Sigma^{−1/2} = (\Sigma^{−1})^{1/2}\). De marera simbólica, si \(\vec{X} \sim N_p (\mu,\Sigma)\), entonces, \(Z = Σ^{−1/2}(X − \mu) ∼ N_p (0, I_p)\). Recuerde que esto es equivalente al caso univariado (\(p = 1\)), pues si \(X ∼ N(\mu, \sigma^2)\), entonces, \(Z =\dfrac{Z − \mu}{\sigma}\sim N(0, 1).\)
Bibliografía
Díaz Monroy, L. G., & Morales Rivera, M. A. (2012, septiembre). Análisis estadístico de datos multivariados. Coordinación de Publicaciones, Facultad de Ciencias. http://ciencias.bogota.unal.edu.co/fileadmin/Facultad_de_Ciencias/Publicaciones/Imagenes/Portadas_Libros/Estadistica/Estadistica_Multivariada_Inferencia_y_Metodos/Estadistica_multivariada_inf..pdf
Everitt, B., & Hothorn, T. (2011). An Introduction to Applied Multivariate Analysis with R (1.a ed.). Springer. https://www.webpages.uidaho.edu/~stevel/519/An%20Intro%20to%20Applied%20Multi%20Stat%20with%20R%20by%20Everitt%20et%20al.pdf
Blanco Castañeda, L. (2013). Probabilidad. Editorial UN.
Mood, A. M. (1950). Introduction to the Theory of Statistics.